Visão Geral e Padrão de Evolução Arquitetural
Passamos do sucesso fundamental do AlexNet para a era de redes profundas extremas Redes Neurais Convolucionais (CNNs). Esse deslocamento exigiu inovações arquiteturais profundas para lidar com a profundidade extrema, mantendo a estabilidade durante o treinamento. Analisaremos três arquiteturas fundamentais—VGG, GoogLeNet (Inception), e ResNet—compreendendo como cada uma resolveu aspectos diferentes do problema de escalabilidade, preparando o terreno para a interpretabilidade rigorosa do modelo mais adiante nesta lição.
1. Simplicidade Estrutural: VGG
O VGG introduziu o paradigma de maximizar a profundidade usando tamanhos de kernel extremamente uniformes e pequenos (exclusivamente filtros convolucionais 3x3empilhados). Embora computacionalmente caro, sua uniformidade estrutural provou que a profundidade bruta, obtida por mínima variação arquitetural, foi um fator primário para ganhos de desempenho, consolidando a importância dos campos receptivos pequenos.
2. Eficiência Computacional: GoogLeNet (Inception)
O GoogLeNet contrapôs o alto custo computacional do VGG priorizando eficiência e extração de características em múltiplas escalas. A inovação central é o Módulo Inception, que realiza convoluções paralelas (1x1, 3x3, 5x5) e pooling. Criticamente, utiliza convoluções 1x1 como estreitospara reduzir drasticamente a contagem de parâmetros e a complexidade computacional antes das operações dispendiosas.
A conexão skip introduz um termo de identidade ($+x$) na saída, criando um termo aditivo no caminho derivativo ($\frac{\partial Loss}{\partial H} = \frac{\partial Loss}{\partial F} + 1$). Esse termo garante um caminho direto para o sinal de gradiente fluir para trás, garantindo que os pesos acima recebam um sinal de gradiente não nulo e útil, independentemente de quão pequenos sejam os gradientes através da função residual $F(x)$.